一位前UBC博士后研究员带领一个国际研究小组重新分析了所有公开的RNA测序数据,结果发现了比以前已知的RNA病毒多出近9倍的病毒,其中包括在一些意想不到的地方出现的几个新冠状病毒的物种。
这个地球规模的RNA病毒数据库可以为快速识别病毒溢出到人类以及那些影响牲畜、农作物和濒危物种的病毒铺平道路。
Artem Babaian博士为Serratus项目合作的幕后推手。该项目于上周在著名的科学杂志《自然》上发表了究成果。
Babaian称,通过跟云创新中心(Cloud Innovation Centre,UBC和亚马逊网络服务之间的公共/私人合作)的合作,Serratus项目得以在AWS上建立了一个非常强大的超级计算机,其功率相当于22,500个CPU。
这台超级计算机读取了来自世界各地570万个生物样本的2000万GB的公开基因序列数据并搜索了表明存在RNA病毒的特定基因。这些样本已经收集了13年并在世界研究界内自由分享,其中包括从冰芯样本到动物粪便的一切。
Serratus项目的研究人员发现了132,000种RNA病毒(以前只知道15,000种)和九个新的冠状病毒物种。Babaian估计,如果没有CIC和AWS云端,传统的超级计算机需要花费一年多的时间和数十万美元来完成这项分析工作。Serratus在11天内以24,000美元完成了这一任务。
“我们正在进入一个了解自然界中病毒的遗传和空间多样性以及各种各样的动物如何跟这些病毒接触的新时代。而希望是如果像SARS-CoV-2--导致COVID-19的新型冠状病毒--再次出现,我们不会措手不及。这些病毒可以更容易地被识别且可以更快地被找到它们的自然库。真正的目标是这些感染被及早识别,这样它们永远不会成为大流行病,”Babaian说道,“如果一个病人出现不明原因的发烧,一旦血液被测序,你现在就可以把人体内的未知病毒跟一个更大的现有病毒数据库联系起来。如如果一个病人在圣路易斯出现了来源不明的病毒感染,那么你现在可以在约两分钟内通过数据库进行搜索并将该病毒跟如2012年在撒哈拉以南非洲取样的一只骆驼联系起来。”
32岁的Babaian一直在跟不列颠哥伦比亚省癌症协会进行癌症基因研究,当COVID-19大流行病发生时他转换了工作方向。
Babaian称,如果没有UBC云计算创新中心的支持他不可能完成这项工作。